Para el ICFES es muy importante conocer cuáles son los factores de éxito en el desempeño en un curso de matemáticas de estudiantes de grado 10mo.
El presente informe, tiene como objetivo presentar las características de los datos de estudiantes de grado 10mo que incluye su desempeño el curso de matemáticas.
Los datos fueron recolectados en un colegio a través del seguimiento del rendimiento académico en el curso de matemáticas.
Inicialmente se presentarán los detalles de la estructura de la base de datos, donde se detallará aspectos como el significado de cada fila y columna, los tipos de variable. Seguido de los detalles de la base de datos, expondremos los hallazgos más importantes en el análisis descriptivo univariado y bivariado y el tratamiento que les dimos. Por último, se listarán una serie de conclusiones y recomendaciones teniendo en cuenta los hallazgos encontrados en los datos.
Antes de empezar se cambia el formato de los datos:
| sex | age | address | Pstatus | Medu | Fedu | reason | traveltime | paid | internet | absences | G3 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Femenino | 18 | Urbano | Separados | higher education | higher education | course | 15 to 30 min. | no | no | 6 to 10 absences | 6 |
| Femenino | 17 | Urbano | Viviendo juntos | none or primary education (4th grade) | none or primary education (4th grade) | course | <15 min. | no | yes | 0 to 5 absences | 6 |
| Femenino | 15 | Urbano | Viviendo juntos | none or primary education (4th grade) | none or primary education (4th grade) | other | <15 min. | yes | yes | 6 to 10 absences | 10 |
| Femenino | 15 | Urbano | Viviendo juntos | higher education | 5th to 9th grade | home | <15 min. | yes | yes | 0 to 5 absences | 15 |
| Femenino | 16 | Urbano | Viviendo juntos | secondary education | secondary education | home | <15 min. | yes | no | 0 to 5 absences | 10 |
| Masculino | 16 | Urbano | Viviendo juntos | higher education | secondary education | reputation | <15 min. | yes | yes | 6 to 10 absences | 15 |
El objetivo de esta sección es mostrar los hallazgos más relevantes del análisis univariado y su relación con la variable dependiente. Esto con el objetivo de dar un vistaso de las variables, mirar su distribución y encontrar si realmente tienen relación:
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 357 | 11.52381 | 3.227797 | 11 | 11.45993 | 2.9652 | 4 | 20 | 16 | 0.2075008 | -0.4275731 | 0.1708331 | 5 | 9 | 14 |
A continuación se hace la prueba de normalidad con 3 pruebas diferentes
## [1] 48 199
##
## Shapiro-Wilk normality test
##
## data: data$G3
## W = 0.98082, p-value = 0.000109
##
## Anderson-Darling normality test
##
## data: data$G3
## A = 2.5143, p-value = 2.323e-06
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data$G3
## D = 0.11068, p-value = 2.376e-11
Tal como se muestra en la gráfica y en las pruebas shapito, Anderson-Darling y Lilliefors (Kolmogorov-Smirnov) las notas de matemáticas NO siguen una distribución normal.
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 357 | 16.65546 | 1.268262 | 17 | 16.58188 | 1.4826 | 15 | 22 | 7 | 0.5402778 | 0.1834692 | 0.0671235 | 2 | 16 | 18 |
A continuación se hace la prueba de normalidad con 3 pruebas diferentes
## [1] 226 355
##
## Shapiro-Wilk normality test
##
## data: data$age
## W = 0.90743, p-value = 5.702e-14
##
## Anderson-Darling normality test
##
## data: data$age
## A = 11.295, p-value < 2.2e-16
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data$age
## D = 0.18195, p-value < 2.2e-16
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| Femenino | 185 | 51.82 | 51.82 |
| Masculino | 172 | 48.18 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| Urbano | 279 | 78.15 | 78.15 |
| Rural | 78 | 21.85 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| Viviendo juntos | 318 | 89.08 | 89.08 |
| Separados | 39 | 10.92 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| higher education | 125 | 35.01 | 35.01 |
| secondary education | 90 | 25.21 | 60.22 |
| 5th to 9th grade | 89 | 24.93 | 85.15 |
| none or primary education (4th grade) | 53 | 14.85 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 5th to 9th grade | 102 | 28.57 | 28.57 |
| secondary education | 94 | 26.33 | 54.90 |
| higher education | 88 | 24.65 | 79.55 |
| none or primary education (4th grade) | 73 | 20.45 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| <15 min. | 236 | 66.11 | 66.11 |
| 15 to 30 min. | 95 | 26.61 | 92.72 |
| >30 min. | 26 | 7.28 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| no | 184 | 51.54 | 51.54 |
| yes | 173 | 48.46 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| course | 126 | 35.29 | 35.29 |
| reputation | 99 | 27.73 | 63.02 |
| home | 97 | 27.17 | 90.19 |
| other | 35 | 9.80 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| yes | 299 | 83.75 | 83.75 |
| no | 58 | 16.25 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 0 to 5 absences | 211 | 59.10 | 59.10 |
| 6 to 10 absences | 80 | 22.41 | 81.51 |
| 11 to 20 absences | 51 | 14.29 | 95.80 |
| >20 absences | 15 | 4.20 | 100.00 |
Al momento de analizar las relaciones entre variables cuantitativas y cualitativas se debe verificar que los datos cumplan una distribucion normal, dependiendo de esto se pueden tomar diferentes caminos para probar que la variable cualitatia influye en la variable dependiente Como se pudo observar cuando se analizó la variable de las notas de matemàticas, no seguía una distribución normal. Por lo tanto, al hacer la comparación de variable cualitativa vs la variable dependiente, se compara usando Kruskal-Wallis para verificar si existe relación entre las variables (verificando si sus distribuciones son la misma). En caso de que no lo sea se pasa a verificar por cada pareja para ver aquellas que influyen en la nota final de matemáticas.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | none or primary education (4th grade) | 53 | 10.3962 | 2.5969 | 10 | 10.3488 | 2.9652 | 5 | 16 | 11 | 0.1388 | -0.2456 | 0.3567 | 3.00 | 9 | 12.00 |
| G32 | 5th to 9th grade | 89 | 11.2584 | 2.7367 | 11 | 11.1644 | 2.9652 | 6 | 19 | 13 | 0.3303 | -0.0589 | 0.2901 | 3.00 | 10 | 13.00 |
| G33 | secondary education | 90 | 11.3333 | 3.4250 | 11 | 11.2361 | 2.9652 | 5 | 19 | 14 | 0.2696 | -0.5994 | 0.3610 | 4.75 | 9 | 13.75 |
| G34 | higher education | 125 | 12.3280 | 3.4752 | 13 | 12.3465 | 4.4478 | 4 | 20 | 16 | -0.0966 | -0.6360 | 0.3108 | 5.00 | 10 | 15.00 |
Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis. Esta prueba verifica la igual entre las medias de las diferentes poblaciones.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by Medu
## Kruskal-Wallis chi-squared = 14.821, df = 3, p-value = 0.001976
Como el valor p es menor a 0.05 se puede decir con un nivel de signficancia de 95% que existe diferencia significativa entre las medias de los grupos. Es decir, esta prueba corrobora con un nivel de significancia de 95% que el nivel educativo de la madre (Medu) influye sobre las notas finales. Dado que se rechazo la hipotesis nula de la prueba se puede realizar la prueba de Wilcox para identificar cuales son las medias diferentes.
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: Medu_G3$G3 and Medu_G3$Medu
##
## none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade 0.2288 -
## secondary education 0.2805 0.9491
## higher education 0.0024 0.0640
## secondary education
## 5th to 9th grade -
## secondary education -
## higher education 0.1309
##
## P value adjustment method: holm
Al utilizar la prueba wilcox para identificar las medias diferentes se puede decir con un nivel de confiabilidad de 95% que son estadisticamente diferentes las medias entre higher education y none or primary education (4th grade). Es decir la media de notas finales de los estudiantes con madres con educacion universitaria son diferentes a las notas de los estudiantes con madres con educacion nula o primaria.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
| item | category | vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | 1 | none or primary education (4th grade) | 1 | 73 | 10.6438 | 3.0063 | 10.0 | 10.5085 | 2.9652 | 5 | 18 | 13 | 0.4026 | -0.3891 | 0.3519 | 4 | 8 | 12 |
| G32 | 2 | 5th to 9th grade | 1 | 102 | 11.5686 | 3.1639 | 11.0 | 11.5366 | 2.9652 | 5 | 19 | 14 | 0.1636 | -0.2861 | 0.3133 | 4 | 10 | 14 |
| G33 | 3 | secondary education | 1 | 94 | 11.3404 | 3.2447 | 11.0 | 11.1842 | 2.9652 | 4 | 20 | 16 | 0.4075 | -0.2874 | 0.3347 | 4 | 9 | 13 |
| G34 | 4 | higher education | 1 | 88 | 12.3977 | 3.2889 | 12.5 | 12.4583 | 3.7065 | 5 | 19 | 14 | -0.1595 | -0.4848 | 0.3506 | 5 | 10 | 15 |
Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis. Esta prueba verifica la igual entre las medias de las diferentes poblaciones.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by Fedu
## Kruskal-Wallis chi-squared = 13.83, df = 3, p-value = 0.003146
De igual manera, para este analisis como el valor p es menor a 0.05 se puede decir con un nivel de signficancia de 95% que existe diferencia significativa entre las medias de los grupos. Es decir, esta prueba corrobora con un nivel de significancia de 95% que el nivel educativo del padre (Fedu) influye sobre las notas finales. Posteriormente se puede realizar una prueba de Wilcox para identificar las medias diferentes
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: Fedu_G3$G3 and Fedu_G3$Fedu
##
## none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade 0.1737 -
## secondary education 0.3906 0.4431
## higher education 0.0023 0.1760
## secondary education
## 5th to 9th grade -
## secondary education -
## higher education 0.0688
##
## P value adjustment method: holm
En el resultado de la prueba wilcox se puede identificar las medias estadisticamente diferentes con un nivel de confiabilidad de 95%. Vemos que las medias entre higher education y none or primary education (4th grade) tiene valor menor a 0.05 por tanto son diferentes. Es decir la media de notas finales de los estudiantes con padres con educacion universitaria son diferentes a las notas de los estudiantes con padres con educacion nula o primaria.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | <15 min. | 236 | 11.7415 | 3.3129 | 11 | 11.7053 | 2.9652 | 4 | 20 | 16 | 0.1132 | -0.4633 | 0.2157 | 4.25 | 9.75 | 14.00 |
| G32 | 15 to 30 min. | 95 | 11.1579 | 3.1227 | 11 | 11.0649 | 2.9652 | 5 | 19 | 14 | 0.3154 | -0.4958 | 0.3204 | 4.00 | 9.00 | 13.00 |
| G33 | >30 min. | 26 | 10.8846 | 2.6732 | 10 | 10.7727 | 2.9652 | 6 | 18 | 12 | 0.5655 | 0.1951 | 0.5243 | 2.75 | 10.00 | 12.75 |
Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by traveltime
## Kruskal-Wallis chi-squared = 3.7159, df = 2, p-value = 0.156
Para el caso de tiempo de viaje se evidencia que el valor p es mayor a 0.05, lo cual quiere decir que no hay una relacion significativa entre las variables. Es decir, el tiempo de viaje del estudiante no afecta significativa el resultado de las notas finales.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | no | 184 | 11.6141 | 3.4017 | 11 | 11.5676 | 2.9652 | 5 | 20 | 15 | 0.1702 | -0.5850 | 0.2508 | 5 | 9 | 14 |
| G32 | yes | 173 | 11.4277 | 3.0388 | 11 | 11.3525 | 2.9652 | 4 | 19 | 15 | 0.2353 | -0.2895 | 0.2310 | 4 | 10 | 14 |
Vemos que visualmente no hay diferencias notables entre las medias de los tratamientos, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by paid
## Kruskal-Wallis chi-squared = 0.26329, df = 1, p-value = 0.6079
En este caso tambien vemos que el valor p no es menor a 0.05 por tanto, no hay una relacion significativa entre las variables. Es decir, las clases pagas extra no afectan significativamente las notas finales.
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | no | 58 | 10.7069 | 2.9677 | 10 | 10.6042 | 2.9652 | 5 | 18 | 13 | 0.3126 | -0.1275 | 0.3897 | 3 | 9 | 12 |
| G32 | yes | 299 | 11.6823 | 3.2568 | 11 | 11.6224 | 2.9652 | 4 | 20 | 16 | 0.1719 | -0.4828 | 0.1883 | 4 | 10 | 14 |
##
## Kruskal-Wallis rank sum test
##
## data: G3 by internet
## Kruskal-Wallis chi-squared = 4.2654, df = 1, p-value = 0.0389
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | course | 126 | 11.3016 | 3.2478 | 11 | 11.2255 | 2.9652 | 5 | 19 | 14 | 0.2709 | -0.4072 | 0.2893 | 4 | 9 | 13 |
| G32 | home | 97 | 11.5258 | 3.0791 | 11 | 11.4051 | 2.9652 | 5 | 19 | 14 | 0.3387 | -0.4560 | 0.3126 | 4 | 10 | 14 |
| G33 | other | 35 | 11.4857 | 3.2843 | 11 | 11.4138 | 2.9652 | 5 | 19 | 14 | 0.1892 | -0.5487 | 0.5551 | 3 | 10 | 13 |
| G34 | reputation | 99 | 11.8182 | 3.3484 | 12 | 11.8148 | 2.9652 | 4 | 20 | 16 | 0.0193 | -0.4937 | 0.3365 | 4 | 10 | 14 |
##
## Kruskal-Wallis rank sum test
##
## data: G3 by reason
## Kruskal-Wallis chi-squared = 1.5656, df = 3, p-value = 0.6672
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | 0 to 5 absences | 211 | 12.0000 | 3.1275 | 12 | 11.9467 | 2.9652 | 5 | 20 | 15 | 0.1859 | -0.5762 | 0.2153 | 5 | 10 | 15 |
| G32 | 6 to 10 absences | 80 | 11.4000 | 3.2320 | 11 | 11.2969 | 2.9652 | 5 | 19 | 14 | 0.3053 | -0.3664 | 0.3613 | 5 | 9 | 14 |
| G33 | 11 to 20 absences | 51 | 10.1176 | 2.9976 | 10 | 10.0976 | 2.9652 | 5 | 17 | 12 | 0.0592 | -0.6449 | 0.4198 | 4 | 8 | 12 |
| G34 | >20 absences | 15 | 10.2667 | 3.8446 | 9 | 10.1538 | 2.9652 | 4 | 18 | 14 | 0.6830 | -0.2016 | 0.9927 | 3 | 8 | 11 |
##
## Kruskal-Wallis rank sum test
##
## data: G3 by absences
## Kruskal-Wallis chi-squared = 15.905, df = 3, p-value = 0.001186
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: absences_G3$G3 and absences_G3$absences
##
## 0 to 5 absences 6 to 10 absences 11 to 20 absences
## 6 to 10 absences 0.3654 - -
## 11 to 20 absences 0.0027 0.1786 -
## >20 absences 0.1786 0.3654 0.8172
##
## P value adjustment method: holm
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | Femenino | 185 | 11.2054 | 3.1745 | 11 | 11.1678 | 2.9652 | 4 | 19 | 15 | 0.1902 | -0.4009 | 0.2334 | 4 | 9 | 13 |
| G32 | Masculino | 172 | 11.8663 | 3.2587 | 12 | 11.7681 | 2.9652 | 5 | 20 | 15 | 0.2133 | -0.5180 | 0.2485 | 4 | 10 | 14 |
##
## Kruskal-Wallis rank sum test
##
## data: G3 by sex
## Kruskal-Wallis chi-squared = 3.1464, df = 1, p-value = 0.0761
## [1] -0.1403718
##
## Pearson's product-moment correlation
##
## data: data$age and data$G3
## t = -2.6713, df = 355, p-value = 0.007905
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.24066109 -0.03711684
## sample estimates:
## cor
## -0.1403718
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | Rural | 78 | 10.7308 | 3.1936 | 10 | 10.6094 | 2.9652 | 5 | 19 | 14 | 0.3577 | -0.1575 | 0.3616 | 4.5 | 8.25 | 12.75 |
| G32 | Urbano | 279 | 11.7455 | 3.2080 | 11 | 11.6800 | 2.9652 | 4 | 20 | 16 | 0.1719 | -0.4867 | 0.1921 | 4.0 | 10.00 | 14.00 |
##
## Kruskal-Wallis rank sum test
##
## data: G3 by address
## Kruskal-Wallis chi-squared = 5.7749, df = 1, p-value = 0.01626
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | Separados | 39 | 11.7692 | 3.5278 | 11 | 11.6667 | 2.9652 | 6 | 19 | 13 | 0.3720 | -0.5665 | 0.5649 | 3.5 | 10 | 13.5 |
| G32 | Viviendo juntos | 318 | 11.4937 | 3.1938 | 11 | 11.4414 | 2.9652 | 4 | 20 | 16 | 0.1735 | -0.4494 | 0.1791 | 5.0 | 9 | 14.0 |
##
## Kruskal-Wallis rank sum test
##
## data: G3 by Pstatus
## Kruskal-Wallis chi-squared = 0.13396, df = 1, p-value = 0.7144